K-Fold Cross-validation¶

Constumava-se utilizar a divisão dos dados em dois conjuntos train e test, porém com o passar dos tempo, essa maneira de divisão acabou não sendo a forma mais eficiente de fazer a divisão e obter resultados eficientes.

Assim sendo, vamos utilizar na implementação do nosso trabalho o K-Fold Cross-validation, esta técnica consiste em dividir meu conjunto de dados da seguinte maneira, se o valor do K for igual a 3, uma Fold será utilizada para treino e as outras duas serão utilizada para teste, se o valor do K for igual a 5, uma Fold será utilizada para teste e as outras quatro serão utilizadas para treino, a mesma ideia acontece caso o valor de K seja 10, uma Fold será utilizada para teste enquanto as outras nove serão utilizadas para treino. Além disso, este técnica ajuda a previnir os dados de sofrerem overfitting ou underfitting.

Para fazermos a implementação do K-Fold utilizaremos uma biblioteca do python chamada scikit-learn e o módulo KFold.